查看原文
其他

Points of Significance: Comparing samples – part I

Points of Significance: Comparing samples – part I

简介


Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。

系列索引

1. Points of Significance: Importance of being uncertain

2. Points of Significance: Error bars

3. Points of Significance: Significance, P values and t-tests

4. Points of Significance: Power and sample size

5. Points of Significance: Visualizing samples with box plots

扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。


主要内容

        我们在前面第三篇Points of Significance: Significance, P values and t-tests中已经介绍了t检验的基本概念,本文将对t检验进行更加深入的剖析。

 

        通常情况下,如果我们想要比较两个不同条件下的结果,比如比较男性与女性,比较安慰剂组与服药组,或者服药前和服药后等等,我们一般使用t检验来检测两个不同条件下的结果是否显著地不相同。当我们所比较的两组样本是相互独立的时候,比如男性和女性,我们用t检验检测差异比较容易理解,但是如果当两组样本不是相互独立的时候,比如服药前和服药后,这个时候我们用另外一种t检验,就是所谓的配对t检验(paired t-tests)。


t检验分类

基本来说,t检验总共有三种

单样本t检验:检验均值是否与某个固定的值有显著差异,比如检验人群身高平均值是否为170等。

双样本t检验:检验两个分布的均值是否相同,比如看中国人和美国人的身高是否有显著差异。

配对t检验:检验同一样本两次测量之间是否有显著差异,比如患者吃药前和吃药后的差异。


理解单样本t检验与双样本t检验

        如下图a所示,最左边的分布为检验样本总体分布,我们想要从中抽样检验是否与固定均值有显著差异,抽样样本均值服从图a中间那个图的分布,最后我们利用图a最后一个图表示抽样均值分布与固定均值的差异,然后利用该分布来进行检验。

        上图b中为双样本t检验,Y是原假设分布,X是备择假设分布,同样为了考察两个分布均值是否有差异,我们对两个总体都进行抽样,抽样均值分布如上图b中间的图形,同样两个分布做差可以得到用来做检验的t分布。


        说了这么多,大家看单样本和双样本的最后用来检验的分布是不是差不多的。从图上可以看出,他们分布的均值是一样的,但是两个分布的标准差不一样,显然双样本检验的方差大。那么在这两个分布的情况下那种检验更容易显著呢?

        假如在单样本检验和双样本检验中,均值相差都为2,从上图可以看出单样本2右边区域面积很小,双样本相对要大很多,也就是说当相差程度一样时,标准差小的单样本检验更容易显著。这给我们设计实验提供了一个有用的思路,就是如果我们的实验检验不显著(p=0.06),但是根据我们的知识应该是显著的,这种时候可以考虑降低标准差,也就是可以通过增加样本量来让检验显著。当然这个前提是更多的时候要保持均值不变。


实例

        下面我们看一个单样本检验与双样本检验的实例:

        上图a中展示的是单样本检验,原假设均值为10,随机抽取5个样本,样本均值为11.1, 样本标准差为0.84,使用单样本检验计算得到t值为2.93,p值为0.04,当在一类错误alpha为0.05时我们认为抽样均值与10有显著差异。

        上图b中展示的双样本检验,两组样本,其中一组跟单样本检验中一样,为5个样本,样本均值为11.1, 样本标准差为0.84,另外一组为5个样本,均值为10,标准差为0.85,利用双样本检验得到t值为2.06,p值为0.073,此时在alpha为0.05的条件下就不显著了。

实例结论与上文我们得出的结论相同。


配对检验

下面我们说配对检验的基本思想

        还是刚才我们双样本检验的数据,我们双样本检验不显著。若是我们额外知道两组样本分布为吃药前和吃药后的值,那么我们可以做成配对t检验。


如上图b中的一种配对方式,连线的两点代表两组属于同一个样本的不同条件的值。此时若我们将X与Y做差,得到测量值在不同吃药前后的差异值,然后我们再将差异值与0相比较,看是否显著的与0不相同,此时,双样本配对检验相当于转变成为了单样本检验。

在上述实例中该配对检验t值为3.77,p值为0.02,在alpha为0.05的条件下显著。


参考文献

1. Krzywinski, M., and Altman, N. (2014). Points of significance: Comparing samples-part I. Nature methods 11, 215-216.

声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误,感谢您指出。

若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com

扫描或识别下方二维码关注NGSHotpot

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存